期刊
  出版年
  关键词
结果中检索 Open Search
Please wait a minute...
选择: 显示/隐藏图片
1. 模型驱动的大数据流水线框架PiFlow
朱小杰, 赵子豪, 杜一
计算机应用    2020, 40 (6): 1638-1647.   DOI: 10.11772/j.issn.1001-9081.2019101793
摘要471)      PDF (1594KB)(498)    收藏
复杂流程的大数据处理多依托于流水线系统,但大数据处理的流水线系统在易用性、功能复用性、扩展性以及处理性能等方面存在不足。针对上述问题,为提高大数据处理环境的构建与开发效率,优化处理流程,提出了一种模型驱动的大数据流水线框架PiFlow。首先,将大数据处理过程抽象为有向无环图;然后,开发一系列组件用于构建数据处理流水线,并设计了流水线任务执行机制。同时,为规范和简化流水线框架的描述,设计了基于模型驱动的大数据流水线描述语言——PiFlowDL,该语言以模块化、层次化的方式对大数据处理任务进行描述。PiFlow以所见即所得(WYSIWYG)的方式配置流水线,集成了状态监控、模板配置、组件集成等功能,与Apache NiFi相比有2~7倍的性能提升。
参考文献 | 相关文章 | 多维度评价
2. 基于多源出行数据的居民行为模式分析方法
徐晓伟, 杜一, 周园春
计算机应用    2017, 37 (8): 2362-2367.   DOI: 10.11772/j.issn.1001-9081.2017.08.2362
摘要847)      PDF (965KB)(808)    收藏
基于对智能交通卡数据的挖掘与分析能够为城市交通建设和城市管理提供有力支持,但现有研究数据大都仅包含公交或地铁这两方面数据,且主要关注群体性宏观出行规律。针对这一问题,以某城市交通卡数据为例,该数据包含着城市居民日常出行公交、地铁、出租车等多源数据,首先提出行程链的概念对居民出行行为建模,在此基础上给出不同维度的周期性出行特征;然后提出一种基于最长公共子序列的空间周期性特征提取方法,并对城市居民出行规律进行聚类分析;最后通过规则定义5个评价指标对该方法的有效性进行初步验证。结果表明引入该方法的聚类算法对聚类结果有6.8%的效果提升,有利于发现居民的行为模式。
参考文献 | 相关文章 | 多维度评价